title: 统计学统计学
这部分内容有多又杂还不好理解,晕了.
总体:
我们假设
样本:
独立要求放回抽样,实际上考虑十分之一原则
样本的上述两条性质告诉我们:
观测值: 样本
似然函数
根据独立性,也有下面两种表示:
似然和概率本质是一样的,计算都使用联合概率,但是似然强调:我们已经有了一组观测值,在不同参数下观测到这样一组观测值的概率如何.
统计量
对于样本
是样本的统计量,其分布为抽样分布,在观测值
下面是一些常见的统计量:
样本均值
样本方差与修正方差
另外
样本矩
我们介绍一下统计量和参数估计的关系. 假设
一个常见的评价参数估计值好坏的指标是MSE,对于估计值
如果其中
另外,如果
我们给出下面几个结论,这可以作为我们计算样本的分布的例子.
样本均值是对总体均值的无偏估计:
根据这个结果,还有:
样本均值是对总体均值的相合估计:
这个东西证明其实很简单,就是Khinchin大数定律嘛!条件是独立同分布 + 均值存在. 另外,请你思考如何证明Khinchin大数定律?其实用特征函数就可以了.
样本方差是对总体方差的无偏+相合估计
这里只说明它是无偏的,这也就说明修正方差不是无偏的:
首先是下面这个已经知道的结论:
求期望:
请注意这里倒数第二个等号使用到了样本二阶矩的期望 = 总体期望的平方 + 总体期望的平方:
另外,其中
样本修正方差是总体方差的相合估计,但不是无偏的
上面说了,样本方差无偏,所以样本修正方差是有偏的.
n - 1是哪里来的?
你也许会好奇(当然你也有可能不好奇)为什么n - 1才是无偏的,下面是ChatGPT的回答:
样本方差的无偏估计公式是
而修正方差(除以
原因在于,样本均值
使得数据点的自由度减少了1,变为
因此,如果除以
这也是为什么统计中常说,样本方差必须除以
样本修正方差等于样本二阶矩 - 样本均值平方
也就是
上面主要介绍了均值和方差及其相关的统计量,接下来介绍样本的顺序统计量.
顺序统计量
如果将样本
最大值 / 最小值
为什么?举个例子
考虑最小值,我们总是要转换成:所有元素都比它大;
考虑最大值,我们总是要转换成:所有元素都比它小.
同这个例子我们可以明显地看到:顺序统计量不再满足i.i.d.的条件.
中位数
极差
样本顺序统计量的分布
顺序统计量没有考虑哪个值出现在什么位置,所以我们要乘一个
证明
其中
我们刚才考虑了
如果直接使用上述的结论,需要计算n - 1重积分,很繁琐. 但是考虑下面这个图,我们把整个区间分成三段,用三项分布表示概率:
从而
特别地,如果
作为练习,我们再考虑两项的情况,此时要用五项分布,原理和之前是一样的:
所以:
和之前一样,除以
我们再来看下面这个例子:
和上面一样,我们有:
所以不难知道pdf.
特别地,如果
所以极差
(这个公式和卷积公式很像)
代入之前得到的pdf,就有:
从而
注:似乎均匀分布总会跟Beta分布联系起来
作为顺序统计量部分的结束,我们写一个定理:
顺序统计量的分布
对于均匀分布
也就是
对于一般的分布
其中
我们知道有这样一个知名的结论:
对于正态总体,顺序统计量之间是相关的,但渐近地,对于固定的
经验分布函数
经验分布函数是由顺序统计量
背景知识
经验分布函数(Empirical Distribution Function, EDF)是根据样本数据构造的对总体分布函数的估计。对于任意实数
接下来我们要说明经验分布函数收敛与分布函数,这个做法很有趣,它依赖于我们之前将分布函数写成
这是因为
因此,我们可以计算经验分布函数的期望和方差:
由于
这就说明了经验分布函数依概率(逐点)收敛于分布函数。而且根据中心极限定理,由于
所以我们还知道收敛速度是
你能看懂我们上面这是在做什么吗?
我们的经验分布函数
除了上面的结论,我们还有:
Glivenko-Cantelli定理
这个定理表明经验分布函数在整个实数轴上一致地几乎必然收敛到真实分布函数。这是一个强有力的结果,因为它意味着经验分布函数是真实分布函数的一个良好的全局近似。不过没有机会证明了。
我们知道(你知道吗?)
请使用Delta方法说明:
说一下符号:
解答:
我们先来说明一下“我们知道”. 因为
这里
我们可以使用Delta方法来解决这个问题。首先回顾一下Delta方法的内容:
Delta方法
如果
现在,我们已知:
这里
我们需要找到一个函数
因此,我们可以取
微积分复习:反函数求导法则
我们知道
根据Delta方法:
因此:
这等价于:
其中
抽样分布
抽样分布是指统计量(基于样本计算得到的随机变量)的概率分布。统计量是样本的函数,由于样本是随机的,因此统计量也是随机变量,它具有某种概率分布,这种分布就是抽样分布。
考虑统计量
卡方分布
如果
如果
Gamma分布
随机变量
其中
Gamma分布的期望和方差:
Gamma分布的特殊情况:
当
当
Gamma分布的可加性:
如果
卡方分布的性质
期望与方差
密度函数
卡方分布的可加性
如果
t分布
考虑
t分布的密度函数为:
这是一个对称分布。而且,当
期望与方差:
如果
证明:
方差:
根据对称性,我们还有:
这里的
F分布
其中
F分布的密度函数为:
F分布的一些重要性质:
以及:
如果
证明:
设
则
因为
假设
样本均值的分布:
样本均值的分布(这是正态分布平方分布的直接推论):
样本方差的分布:
重要结论:
只有在正态总体中,样本均值和样本方差才是相互独立的。这是正态分布的一个特殊性质。
均值和样本方差的协方差(推导?):
对于正态分布,由于其三阶中心矩为0,因此
我们下面证明
证明:
我们知道
其中
由于多元正态分布的线性变换仍然是多元正态分布,
对于任意
因此,
更一般地,
而
我们看
分块对角,所以
此外,还有一个有趣的结论:
这是因为
Review: Gamma分布的可加性
如果
上面这个结论只是复习,但是反过来,下面这个也是正确的:
更一般地,如果
证明可以通过特征函数来完成:
由独立性,我们有
解得:
这正是
现在我们可以继续推导样本方差的分布(结论3. )也就是下面这个式子:
首先,我们知道:
而样本方差可以表示为:
注意到
所以:
其中
由于
这就证明了
考虑一个
充分统计量
假设样本
此分布与
如果
(*)
我们考虑计算
这里注意第二个等号.
注意第二个等号的分母是因为Poisson和的性质. 接下来考虑
所以
那么什么样的统计量是充分的呢?
因子分解定理
我们只证明离散版本的必要性作为演示,事实上
我们重新考虑(*)这个例子. 事实上
所以
考虑
取后一部分为定理中的
正态分布的充分统计量是均值和样本方差
假设
我们考虑分布:
所以充分统计量是
支撑集依赖于分布参数
所以充分统计量
一个充分统计量是
但是我们也可以这样做:
可以看到
极小充分统计量
我们称
极大似然估计得到的参数一定是充分统计量?
review: 参数估计的好坏,无偏估计与相合估计
矩估计使用样本矩代替总体矩(原点矩).
令最左边的样本原点矩为最右边的总体原点矩,可以解出参数
同样的,令
同样的,令
似然函数
我们曾经介绍过实际推断原理:一件事发生的概率越大,在一次实验中就越可能发生,基于这种思想,我们可以提出极大似然估计:
因为对数函数单调,所以为了计算的方便,我们一般转换成对数似然求最大值:
似然函数:
对数似然:
求驻点:
解得:
似然函数:
极大似然估计的不变性:如果
所以
然后求偏导,解得:
再看下面这个例子,支撑集依赖于参数:
请注意不要一味求导,我们其实想解决的是这个问题:
只需要
下面这个例子说明极大似然估计并不唯一:
事实上就是:
同样因为是单调的,所以其实
老师在这里要求写出示性函数,不过其实写成约束条件也许是更通用的方法.
极大似然函数得到的参数一定是充分统计量
为什么?
这里我们先复习一下有关估计量的评价的几个概念:
无偏估计量
如果统计量
有偏估计量
如果
均方误差 (MSE)
参数
相合估计量
如果对于任意
我们以下面这里例子分析对参数估计的评价.
1. 无偏性与有偏性分析
矩估计是无偏估计,极大似然估计是有偏估计。
矩估计的无偏性:
对于
因此
极大似然估计的有偏性:
我们考虑
对于最大次序统计量
其概率密度函数为:
因此:
所以
我们可以通过乘以修正因子来纠偏:
这将得到一个无偏估计。
方差比较:
矩估计
修正后的极大似然估计
比较两者方差:
当
2. 相合性分析
相合性的充分条件
估计量
我们可以说明矩估计和极大似然估计都是相合的:
矩估计的相合性
对于矩估计
因此,
极大似然估计的相合性
对于极大似然估计
另一种方法是直接计算:
因此,
需要指出的是,如果一个估计是相合的,那么在连续映射下相合性仍然不会改变:
相合性的不变性
如果
这是因为连续映射下的相合性不会改变:如果
此外,连续映射下的极大似然估计也是不变的:
极大似然估计的不变性
如果
3. 均方误差 (MSE) 比较
均方误差 (MSE) 用于比较估计量的整体表现,特别适用于比较有偏估计和无偏估计(不同地,只有两个估计都是无偏的情况下,我们才可以使用方差进行评估(为什么?)就像前面,我们对极大似然估计结果进行修正一样)
回忆下面这个式子:
对于矩估计
对于极大似然估计
化简得:
比较两者:
当
一致最小方差无偏估计(UMVUE)
我们称
Rao-Blackwell 定理
假设
这个定理提供了一种改进估计量的方法:如果我们有
证明:
无偏性:
方差降低:
根据全方差公式:
由于
如果我们找的不是一个充分统计量呢?其实可以说明,还是无偏的,而且方差会变小. 但是为什么我们在这里要求充分统计量呢?事实上,如果我们要求充分统计量,那么这里的
就是一个局部的最优估计,接下来我们介绍Lehmann-Scheffe定理则说的是,找到全局最优的估计
根据因子分解定理,
根据 Rao-Blackwell 定理,我们考虑:
计算条件概率:
因此
这说明
我们有:
零无偏估计量
我们称统计量
零无偏估计定理
假设
证明:
假设
由于
这证明了
我们可以从零空间等角度去理解这个事情
我们需要证明
首先,
使用零无偏估计定理,需要证明
对于指数族分布,我们有:
联合密度函数:
零无偏条件:
利用充分统计量的性质和指数族分布的特性,可以证明
完备分布族
分布族
完备统计量
如果统计量
证明:如果
我们可以将上式重写为:
由于
指数族分布
分布密度函数形如:
指数族分布的性质:
如果
如果
下面这些分布族是完备的:
注意对称的正态不完备,注意里面并不全是指数分布族
注意要求参数空间要完整?
联合密度函数:
这是指数族分布的形式,其中:
根据指数族分布的性质,
Lehmann-Scheffe 定理
如果
证明
根据 Rao-Blackwell 定理,
唯一性:假设存在另一个基于
这意味着
UMVUE并不总是唯一的,只有这里要求完备的情况下才会是唯一的.
正态分布属于指数族分布:
将
易知
显然一个充分统计量是
容易说明是无偏估计,因为显然
所以唯一的UMVUE:
建议复习的时候看看
显然
是
事实上,考虑:
所以(下面这个结论在正态分布章节亦有记载):
所以最后的结论是
极小充分统计量
如果统计量
极小充分统计量包含了样本中关于参数的所有信息,且以最紧凑的形式表示。它在参数估计中尤为重要,因为基于极小充分统计量的 UMVUE 通常更为简洁高效。
极小充分统计量的判定
对于概率密度函数
联合密度函数:
比值:
展开:
这个比值不依赖于
因此,
在参数估计理论中,我们经常关心估计量的精度. 对于无偏估计量,其方差越小,估计精度越高. 但是无偏估计量的方差有理论下界吗?Cramér-Rao 下界给出了肯定的答案:在满足一定正则条件下,任何无偏估计量的方差都有一个理论下界,这个下界与 Fisher 信息量密切相关.
在介绍 Cramér-Rao 下界之前,我们首先需要了解 Fisher 信息量的概念.
Fisher 信息量
设
在二阶可导的情况下,还有等价形式:
这里
Fisher 信息量直观地反映了数据包含的关于参数
为了保证 Cramér-Rao 下界的成立,我们需要一些技术性条件:
正则条件
其中第二个条件最为关键:概率密度函数的支撑集必须与参数无关. 这个条件排除了如均匀分布
设样本
我们定义 Score 函数(量):
Score 函数的期望为零
在正则条件下,
证明:
这里使用了正则条件允许积分与求导交换顺序.
因此,样本的 Fisher 信息量可以表示为:
想想为什么
. 因为独立同分布,方差可加. 我们这个结果表明,样本量越大,Fisher 信息量越大,估计精度越高.
在正则条件下,极大似然估计具有良好的渐近性质:
MLE 的渐近正态性
在正则条件下,极大似然估计
这个结果可以通过 Taylor 展开,Slutsky 定理和中心极限定理证明. 它表明正则条件下 MLE 是相合的,且渐近方差达到 Cramér-Rao 下界,因此是渐近有效的.
现在我们可以给出 Cramér-Rao 下界的主要结果:
Cramér-Rao 下界定理
设样本
则有:
特别地,若
证明:
使用 Cauchy-Schwarz 不等式. 对于任意随机变量
令
有效估计
如果无偏估计
则称
有效估计具有最小方差性质,是理想的估计量. 从包含关系来看:
需要注意的是,有效估计不一定存在. 即使存在,也需要通过具体计算来验证.
Poisson 分布的有效估计
设
解: 首先计算 Fisher 信息量:
因此 Cramér-Rao 下界为:
而
由于
指数分布的有效估计
设
解:
计算 Fisher 信息量:
Cramér-Rao 下界为:
而
因此
对于
分析:
均匀分布
实际上可以证明,
寻找 UMVUE 的主要方法包括:
另外,Basu 定理告诉我们完备充分统计量与辅助统计量独立,这在正态分布中有典型应用:样本均值和样本方差相互独立.
与经典的频率学派不同,Bayes 统计将参数
在 Bayes 统计中:
给定样本观测
其中似然函数:
由于分母不依赖于
这就是著名的"后验 ∝ 似然 × 先验"公式.
基于后验分布,可以构造不同的 Bayes 估计量:
不同的损失函数对应不同的 Bayes 估计量:
共轭先验
如果先验分布
共轭先验的优点是后验分布有解析形式,便于计算和分析.
设
解: 先验密度:
似然函数:
后验分布:
这是
因此,Bayes 估计(后验期望)为:
当
这个结果有直观解释:相当于在观测数据的基础上,额外观测到 1 次成功和 1 次失败.
Gamma 分布的贝叶斯估计
设
Step 1: 选择先验分布
选择共轭先验
Step 2: 计算后验分布
似然函数为:
后验分布(忽略正比常数):
因此后验分布为:
Step 3: 贝叶斯估计
使用后验均值估计(最小平方损失下的贝叶斯估计):
若使用 MAP 估计,需求后验分布的众数:
关于参数化的说明
当 Gamma 分布参数化为
正态分布均值的贝叶斯估计
设
后验分布推导:
似然函数:
结合先验分布,后验分布的对数形式为:
整理后可得后验分布仍为正态分布:
重要性质: 后验均值是先验均值
其他常见共轭先验
[略]
点估计用单个统计量
置信区间
称
枢轴量法是构造置信区间的重要方法.
枢轴量
称统计量
构造置信区间的步骤:
反解得到的置信区间不见得是最优的,要求解最优置信区间我们往往需要求解一个约束优化问题. 实际上现实中我们往往求解等尾置信区间:
但这并不一定最优,但是有如下结论:
等尾置信区间的最优性
当总体分布单峰对称时,等尾置信区间具有最短的期望长度.
均匀分布
Step 1: 点估计为
Step 2: 构造枢轴量
由于
注意这是
Step 3: 确定分位数
对于等尾置信区间,需要:
解得:
Step 4: 置信区间
最优置信区间:
可以证明,最短期望长度的置信区间为:
指数分布
充分统计量(充分统计量怎么找?)为
构造枢轴量:
设
反解得置信区间:
如果我们知道了
注:这部分是使用AI补充笔记的时候AI写的,放在这里.
利用正态总体的抽样分布理论,我们可以构造均值
已知方差
若
其中
未知方差
若
其中
这个结果的推导基于统计量:
这个统计量是由下面的推导得到的:
其中
正态总体方差的置信区间
若
其中
这个结果的推导基于统计量:
两个独立正态总体均值差的置信区间
假设有两个独立的样本:
若
若
其中
单个正态总体均值的假设检验
若要检验假设
当
在显著性水平
当
在显著性水平
两个正态总体均值差的假设检验
若要检验假设
当
在显著性水平
当
在显著性水平
正态总体方差的假设检验
若要检验假设
在显著性水平
两个正态总体方差比的假设检验
若要检验假设
在显著性水平
DKW不等式
对于任意的
这个不等式给出了经验分布函数与真实分布函数之间一致距离的概率上界。
K-S检验统计量
其中
在K-S检验中,如果
经验分布函数可以用来估计分位数。对于
实际上,这等价于样本顺序统计量
顺序统计量
如果将样本
顺序统计量的分布和性质:
对于均匀分布
对于一般的分布
其中
对于正态总体,顺序统计量之间是相关的,但渐近地,对于固定的
极值统计量
极值分布定理
如果存在常数序列
其中
Beta分布
随机变量
其中
Beta分布的期望和方差:
Beta分布与顺序统计量的关系:
如果
更一般地,如果
Gamma分布
随机变量
其中
Gamma分布的期望和方差:
Gamma分布的特殊情况:
当
当
Gamma分布的可加性:
如果
如果
且
这个结果在统计学中非常重要,特别是在贝叶斯分析中。
在实际应用中,我们经常需要确定所需的样本量以达到特定的精度要求。
均值估计的样本量
若要使得均值的估计误差不超过
若
在假设检验中,功效是指当备择假设为真时拒绝原假设的概率。
单个正态总体均值检验的功效
考虑检验
其中
抽样分布理论主要基于正态性假设。然而,在实际应用中,数据可能偏离正态分布。因此,了解统计推断方法的稳健性很重要。
中心极限定理的稳健性
即使总体分布不是正态的,只要样本量足够大,样本均值的分布仍然近似正态。这就是统计推断的稳健性基础。
对于
当总体分布未知或偏离正态性很大时,可以考虑使用基于经验分布函数的非参数方法。
Wilcoxon符号秩检验
这是一种非参数检验方法,用于检验单个总体的中位数是否等于特定值。它不要求总体分布为正态分布,只要总体分布是连续的且对称的即可。
抽样分布是统计推断的基础。通过了解统计量的抽样分布,我们可以构造置信区间、进行假设检验,并进行其他形式的统计推断。
正态总体的抽样分布有特别简单的形式,这使得基于正态假设的统计推断方法特别强大。特别地,样本均值和样本方差的独立性是正态分布的一个特殊性质,它极大地简化了统计推断过程。
经验分布函数作为总体分布函数的一个估计,具有良好的渐近性质,并且可以用于非参数统计推断。它提供了一种在不做强分布假设的情况下进行统计推断的方法。
三大抽样分布(卡方分布、t分布和F分布)在统计推断中扮演着核心角色,它们之间存在着密切的关系,这些关系反映了正态总体中各种统计量之间的内在联系。
Fisher 信息量
参数
Fisher 信息量衡量了样本中包含的关于参数
Cramér-Rao 不等式
对于参数
当等号成立时,对应的估计量称为有效估计量。
计算
因此:
Cramér-Rao 下界为:
样本均值
极大似然估计量的渐近性质
在一般正则条件下,极大似然估计量
这意味着在大样本情况下,极大似然估计量是最优的(在方差意义上)。
极大似然估计量为
Fisher 信息量:
根据极大似然估计量的渐近性质,当
即
在贝叶斯统计中,我们把参数
贝叶斯估计
给定样本
贝叶斯估计通常取后验分布的:
假设
后验分布:
整理指数项:
这是一个正态分布的核,后验分布为:
贝叶斯估计(后验均值)为:
其中
当
在回归分析中,我们关注的是变量之间的关系,而不仅仅是单个参数。
最小二乘估计
给定数据
线性回归模型:
最小二乘估计:
如果假设误差项
实际应用中,数据可能存在异常值或偏离假设分布,这时需要使用鲁棒估计方法。
M 估计
M 估计是极大似然估计的推广,通过最小化一个一般的目标函数:
其中
Huber 估计
Huber 损失函数:
对于较小的残差,使用平方损失(类似最小二乘),对于较大的残差,使用绝对值损失,减轻异常值的影响。
当参数是多维向量时,估计方法可以推广。
均值向量
协方差矩阵
这是有偏估计,无偏估计为:
在实际应用中,选择合适的估计方法需要考虑多种因素:
计算复杂度:矩估计通常计算简单,极大似然估计可能需要数值方法,贝叶斯方法计算量更大。
样本量:小样本时,无偏性可能更重要;大样本时,相合性和渐近性质更为关键。
对模型假设的依赖:极大似然方法依赖于模型的正确设定,矩估计较少依赖于完整的分布假设,鲁棒方法对异常值不敏感。
先验信息:当有可靠的先验信息时,贝叶斯方法可能更优;缺乏先验信息时,频率派方法(如极大似然、矩估计)可能更合适。
关注的性质:如果关注无偏性,可以选择无偏估计;如果关注 MSE,可能需要权衡偏差和方差。
估计方法比较表
| 方法 | 优点 | 缺点 | 适用场景 |
|---|---|---|---|
| 矩估计 | 计算简单,常为无偏 | 可能效率不高 | 快速初步估计,复杂模型 |
| 极大似然估计 | 渐近有效,不变性好 | 可能有偏,计算复杂 | 大样本,模型明确 |
| UMVUE | 最优无偏估计 | 难以找到,计算复杂 | 理论分析,标准模型 |
| 贝叶斯估计 | 利用先验信息,提供不确定性 | 依赖先验选择,计算复杂 | 有先验信息,小样本 |
| 鲁棒估计 | 对异常值不敏感 | 效率可能降低 | 数据存在异常值 |
参数估计是统计推断的核心内容,通过样本数据对总体参数进行推断。本笔记系统地介绍了各种估计方法及其性质:
基本估计方法:
估计量的评价标准:
改进估计方法:
高级理论与应用:
理解这些方法的优缺点和适用条件,对于实际统计分析和数据科学应用至关重要。在不同的问题背景下,选择合适的估计方法能够提高参数估计的准确性和可靠性。